Introduzione alla modellazione generativa: andare oltre la discriminazione

Stiamo passando da modellazione discriminativa, che risolveva problemi di classificazione e regressione apprendendo la probabilità condizionata $P(y|x)$, al complesso dominio della modellazione generativa. Il nostro obiettivo principale ora si sposta verso stima della densità: stimare la distribuzione completa dei dati sottostante $P(x)$ stessa. Questo cambiamento fondamentale ci permette di catturare le dipendenze intricate e la struttura complessa all'interno di insiemi di dati ad alta dimensione, andando oltre la semplice separazione di confini per raggiungere una vera comprensione e sintesi dei dati.

1. L'obiettivo generativo: Modellare $P(x)$

Lo scopo di un modello generativo è stimare la distribuzione di probabilità $P(x)$ da cui proviene il dato di addestramento $X$. Un modello generativo di successo può svolgere tre compiti essenziali: (1) Stima della densità (assegnare un punteggio di probabilità a un input $x$), (2) Campionamento (generare punti dati completamente nuovi $x_{new} \sim P(x)$), e (3) Apprendimento non supervisionato delle caratteristiche (scoprire rappresentazioni significative e distaccate nello spazio latente).

2. Tassonomia: Probabilità esplicita vs. implicita

I modelli generativi sono fondamentalmente categorizzati in base al loro approccio alla funzione di verosimiglianza. Modelli di densità esplicita, come Autoencoder variazionali (VAE) e Modelli di flusso, definiscono una funzione matematica di verosimiglianza e cercano di massimizzarla (o il suo limite inferiore). Modelli di densità implicita, in modo particolare Reti Generative Avversarie (GAN), saltano del tutto il calcolo della verosimiglianza, apprendendo invece una funzione di mappatura per campionare dalla distribuzione $P(x)$ utilizzando un framework di addestramento avversario.

Data Synthesis and Feature Interpolation

Generative models demonstrate their capability by generating novel, high-fidelity instances (e.g., unseen faces, complex textures) or by allowing semantic interpolation in the learned latent space, illustrating the model's grasp of data variability.

Examples of AI-generated faces and interpolated features.

Question 1

In generative modeling, what is the primary distribution of interest?

$P(x)$

$P(y|x)$

$P(x|y)$

$P(y)$

Question 2

Which type of generative model relies on adversarial training and avoids defining an explicit likelihood function?

Variational Autoencoder (VAE)

Autoregressive Model

Generative Adversarial Network (GAN)

Gaussian Mixture Model (GMM)

Challenge: Anomaly Detection

Leveraging Density Estimation

A financial institution has trained an explicit density generative model $G$ on millions of legitimate transaction records. A new transaction $x_{new}$ arrives.

Goal: Determine if $x_{new}$ is an anomaly (fraud).

Step 1

Based on the density estimate of $P(x)$, what statistical measure must be evaluated for $x_{new}$ to flag it as anomalous?

Solution:
The model must evaluate the probability (or likelihood) $P(x_{new})$. If $P(x_{new})$ falls below a predefined threshold $\tau$, meaning the new point is statistically improbable under the learned distribution of normal transactions, it is flagged as an anomaly.